Наносемантика NLab Marker

Продукт
Разработчики: Наносемантика (Nanosemantics Lab)
Дата премьеры системы: 2020/09/08
Дата последнего релиза: 2023/11/09
Технологии: Big Data,  MDM - Master Data Management - Управление основными мастер-данными

Основные статьи:

NLab Marker – это промышленная платформа, готовая к внедрению и эксплуатации на задачах с большими объемами данных, которые нуждаются в специальной ручной обработке: разметке и подготовке специалистами обучающих примеров для алгоритмов машинного обучения. NLab Marker позволяет выделять объекты на видео, расшифровывать аудиозаписи, размечать медицинские снимки. Сервис максимально сокращает время работы специалистов по подготовке данных (разметчиков) и количество ошибок при формировании набора обучающих данных (датасета).

2023: Ускорение процесса разметки данных при работе с изображениями

Компания «Наносемантика» 9 ноября 2023 года представила обновленный сервис для разметки данных «Маркер», который используется как инструмент подготовки датасетов для машинного обучения и создания на их основе нейросетей.

Основные изменения коснулись интерфейса платформы. Теперь у «Маркера» есть англоязычная версия, а также платформа дает более широкие возможности визуализации размеченных данных, что делает работу специалистов нагляднее и удобнее.

Новые функции появились у технологии Active Learning, ускоряющей работу разметчика за счет параллельного обучения, — встроенная в «Маркер» нейросеть «наблюдает» за действиями асессера, после чего начинает самостоятельно «видеть» нужные данные. Добавлены инструменты, которые позволяют достичь более высокой скорости разметки данных при работе с изображениями — Magic Wand и One-Shot. Magic Wand автоматически выделяет объект и минимизирует необходимость ручной корректировки. One-Shot позволяет выбрать нужный объект на эталонном примере, после чего нейросеть начнет самостоятельно находить аналогичные объекты на других изображениях.

По словам разработчиков, «Маркер» позволяет настраивать инструмент максимально тонко, что помогает сервису «узнавать» совсем небольшие детали в материалах. Новые алгоритмы в разы экономят время разметчиков, сокращая стандартный процесс с 2 минут до 0,5 секунды.

Другим важным обновлением стала поддержка платформой формата данных dicom. Он используется в медицинских сканированиях. Новый интерфейс позволяет перемещаться по срезам изображения и использовать «Маркер» для «умных» решений в медицине. ​​

В плане работы с аудиоданными в «Маркер» интегрировали нейросетевую модель для автоматической транскрибации голоса в текст, что экономит время разметчиков, которые могут брать в работу уже почти готовый текст, а не расшифровывать его полностью с нуля. Такие инструменты, как нарезка аудиозаписи на нужные фрагменты и устранение шумов, делают процесс разметки еще более удобным, а результат — более качественным.

Команда «Наносемантики» также оптимизировала логику управления проектами в «Маркере»: теперь задания можно группировать в коллекции, что значительно облегчает процесс распределения задач между разметчиками. Специалисты могут видеть все этапы выполнения работы и сразу отмечать моменты, требующие корректировки.

В будущем разработчики планируют внедрить расширенную статистику для отображения выполненных специалистами заданий. Это позволит детально оценить эффективность каждого сотрудника и оптимизировать управление рабочими процессами.

«
«`Наносемантика` создала платформу `Маркер`, чтобы облегчить клиентам важный и дорогостоящий этап создания нейросетей — разметку данных. На собственном опыте мы поняли, что от качества датасета зависит конечный продукт, будь то привычный чат-бот или продвинутый цифровой двойник. Самые продвинутые языковые модели требуют привлечения тысяч профессиональных разметчиков, что съедает львиную долю бюджета проекта и повышает планку доступа к технологиям искусственного интеллекта. Частичная автоматизация процесса разметки данных за счет технологии активного обучения нейросети `Маркера` снижает расходы на асессеров многократно. А более удобный функционал для контроля за проделанной работой делает итоговый результат заметно качественнее», – рассказал Станислав Ашманов, генеральный директор «Наносемантики».
»

2020: Запуск сервиса NLab Marker

Компания «Наносемантика», разработчик технологий искусственного интеллекта (ИИ) и резидент Кластера информационных технологий Фонда «Сколково», запустила сервис NLab Marker. С его помощью данные преобразуются в информацию, понятную нейронным сетям. Об этом Фонд «Сколково» сообщил 8 сентября 2020 года.

Станислав Ашманов, генеральный директор компании «Наносемантика»:

«
Машинное обучение невозможно без обучающих данных – примеров, по которым алгоритмы учатся. Мы, как разработчики алгоритмов ИИ, знаем, насколько важны качественно размеченные данные. Наша команда разработала платформу NLab Marker для себя. Но теперь мы готовы предложить этот продукт рынку, так как видим спрос на промышленные платформы разметки данных, которые позволяют гибко реализовывать любые задачи по разметке и самостоятельно администрировать этот процесс компаниям с сильным отделом Data Science.
»

Ошибки в датасете критически влияют на качество обучения нейронной сети. Например, обученная нейросеть для видеоаналитики будет пропускать брак на производственной линии или неверно переносить персональные данные из заполненной анкеты в МФЦ. В NLab Marker внедрена система автоматической проверки работы разметчиков на примерах-ловушках (ханипотах). Также контролируются время и объём выполненных заданий. Кроме того, в NLab Marker встроены различные модули для работы с текстом и аудио. Например, модуль для дикторов позволяет им записывать аудио для синтеза речи, а модуль категоризации дает возможность присвоить категорию определенному тексту.

В отличие от аналогов, NLab Marker гарантирует высокую точность подготовки данных, контроль качества на всех этапах процесса разметки и защиту персональных данных, поскольку платформу можно развернуть в защищенном контуре заказчика. Также NLab Marker позволяет вычистить из готового датасета персональные данные, чтобы они не попали в открытый доступ.

Павел Кривозубов, руководитель направления «Робототехника и искусственный интеллект» Фонда «Сколково»:

«
В NLab Marker разработана удобная система для организации и управления командой разметки: куратор распределяет задачи и инструкции по руководителям проектов или исполнителям, а также устанавливает индивидуальные сроки выполнения задач под конкретный проект. Это экономит временные и денежные ресурсы компании. Сервис позволяет работать жителям самых отдалённых регионов, безработным, людям с ограниченными возможностями. Не важно, в какой точке мира находится разметчик, главное, чтобы у него был компьютер и доступ в интернет. Это особенно актуально, ведь в тренде удаленная работа с гибким графиком без привязки к рабочему месту.
»



ПРОЕКТЫ (1) ИНТЕГРАТОРЫ (1) СМ. ТАКЖЕ (4)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon (Датареон) (272)
  Axelot (Акселот) (155)
  Цифра (31)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (25)
  АйТи Про (IT Pro) (21)
  Другие (278)

  Datareon (Датареон) (37)
  Axelot (Акселот) (25)
  Commvault (5)
  АйТи Про (IT Pro) (4)
  Цифра (2)
  Другие (35)

  Datareon (Датареон) (41)
  Axelot (Акселот) (32)
  Цифра (7)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (5)
  Софрос (Sofros) (4)
  Другие (21)

  Datareon (Датареон) (32)
  Axelot (Акселот) (19)
  Софрос (Sofros) (9)
  Naumen (Наумен консалтинг) (3)
  Нетрика Медицина (2)
  Другие (29)

  Datareon (Датареон) (19)
  Axelot (Акселот) (7)
  Софрос (Sofros) (3)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (3)
  Первый Бит (3)
  Другие (18)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon (Датареон) (2, 418)
  Цифра (2, 36)
  Axelot (Акселот) (1, 30)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (5, 26)
  Informatica (14, 21)
  Другие (303, 228)

  Datareon (Датареон) (1, 60)
  Commvault (2, 5)
  АйТи Про (IT Pro) (1, 4)
  ЮниДата (UniData) (1, 3)
  SAP SE (1, 2)
  Другие (25, 25)

  Datareon (Датареон) (1, 71)
  Цифра (1, 7)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (3, 5)
  Axelot (Акселот) (1, 5)
  АСКОН (1, 2)
  Другие (15, 16)

  Datareon (Датареон) (1, 57)
  Axelot (Акселот) (1, 6)
  Цифра (1, 4)
  Naumen (Наумен консалтинг) (1, 3)
  Тандер Сеть магазинов Магнит (2, 2)
  Другие (15, 16)

  Datareon (Датареон) (1, 30)
  Data Sapience (Дата Сапиенс) (2, 3)
  Axelot (Акселот) (1, 2)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (1, 2)
  TData (ТДата) (1, 1)
  Другие (15, 15)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon Platform - 418 (418, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 36 (36, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 30 (30, 0)
  HFLabs Единый клиент - 23 (23, 0)
  АйТи Про: BI.Qube - 18 (18, 0)
  Другие 211

  Datareon Platform - 60 (60, 0)
  АйТи Про: BI.Qube - 4 (4, 0)
  Commvault Complete Data Protection - 4 (4, 0)
  ЮниДата Платформа управления данными - 3 (3, 0)
  Alation Data Catalog - 2 (2, 0)
  Другие 26

  Datareon Platform - 71 (71, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 7 (7, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 5 (5, 0)
  Platforma и HFLabs: Технология безопасного метчинга данных - 2 (2, 0)
  HFLabs Единый клиент - 2 (2, 0)
  Другие 15

  Datareon Platform - 57 (57, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 6 (6, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 4 (4, 0)
  Naumen Enterprise Search - 3 (3, 0)
  N3.Управление НСИ - 2 (2, 0)
  Другие 12

  Datareon Platform - 30 (30, 0)
  Data Sapience: Data Ocean Платформа управления данными - 2 (2, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 2 (2, 0)
  HFLabs Единый клиент - 2 (2, 0)
  Dynamika Единый профиль клиента - 1 (1, 0)
  Другие 13

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (120)
  Большая Тройка (46)
  Умная Логистика (14)
  Сбербанк (14)
  Доверенная среда (13)
  Другие (468)

  Доверенная среда (5)
  Большая Тройка (4)
  Цифра (4)
  БизнесАвтоматика НПЦ (3)
  Ростелеком (3)
  Другие (54)

  БизнесАвтоматика НПЦ (12)
  OneFactor (Уанфактор) ЕдиныйФактор (3)
  РИР (Росатом Инфраструктурные решения) (3)
  Яндекс (Yandex) (2)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (44)

  БизнесАвтоматика НПЦ (5)
  РИР (Росатом Инфраструктурные решения) (3)
  Яндекс.Облако (Yandex Cloud) (2)
  Axenix (ранее Аксенчер Россия) Аксеникс (2)
  CM.Expert (АвтоЭксперт) (2)
  Другие (63)

  БизнесАвтоматика НПЦ (8)
  Rocket Group (Рокет Групп) (2)
  Наносемантика (Nanosemantics Lab) (2)
  Сбер Бизнес Софт (2)
  Сбербанк (2)
  Другие (64)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (2, 119)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Доверенная среда (1, 13)
  Цифра (2, 10)
  Другие (259, 127)

  Доверенная среда (1, 5)
  Большая Тройка (2, 4)
  Цифра (1, 4)
  БизнесАвтоматика НПЦ (1, 3)
  Умная Логистика (2, 2)
  Другие (6, 8)

  БизнесАвтоматика НПЦ (1, 12)
  РИР (Росатом Инфраструктурные решения) (2, 3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
  МегаФон (2, 1)
  ТОТ (Технологии Отраслевой Трансформации) (1, 1)
  Другие (7, 7)

  БизнесАвтоматика НПЦ (1, 5)
  РИР (Росатом Инфраструктурные решения) (3, 4)
  Цифра (1, 2)
  CM.Expert (АвтоЭксперт) (1, 2)
  Датакаталог (1, 2)
  Другие (14, 14)

  БизнесАвтоматика НПЦ (1, 7)
  Сбербанк (2, 2)
  Датакаталог (1, 2)
  СПбГУ ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики) (1, 2)
  Цифра (1, 2)
  Другие (14, 16)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 119 (119, 0)
  Большая Тройка: АИС Редактор территориальных схем - 39 (39, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 24 (0, 24)
  Доверенная среда: Триафлай BI-платформа - 13 (13, 0)
  ZIIoT Платформа для работы с промышленными данными - 10 (10, 0)
  Другие 82

  Доверенная среда: Триафлай BI-платформа - 5 (5, 0)
  ZIIoT Платформа для работы с промышленными данными - 4 (4, 0)
  Visary BI Платформа бизнес-аналитики - 3 (3, 0)
  EMC Greenplum Data Computing Appliance - 2 (2, 0)
  Большая Тройка: АИС Редактор территориальных схем - 2 (2, 0)
  Другие 8

  Visary BI Платформа бизнес-аналитики - 12 (12, 0)
  Росатом Цифровое ресурсоснабжение - 3 (1, 2)
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2 (2, 0)
  RT.Datalake Решение для хранения и обработки данных любых объемов - 1 (1, 0)
  Yabbi Smart Panel (YSP) - 1 (1, 0)
  Другие 1

  Visary BI Платформа бизнес-аналитики - 5 (5, 0)
  Росатом Цифровое ресурсоснабжение - 4 (1, 3)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 2 (0, 2)
  Arenadata Catalog - 2 (2, 0)
  CM.Expert Data Mining платформа - 2 (2, 0)
  Другие 6

  Visary BI Платформа бизнес-аналитики - 7 (7, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 6 (0, 6)
  ZIIoT Платформа для работы с промышленными данными - 2 (2, 0)
  Arenadata Catalog - 2 (2, 0)
  Luxms BI - 2 (2, 0)
  Другие 1